Approximating the disambiguation of some German nominalizations by use of weak structural, lexical and corpus information Hacía la desambiguación de nominalizaciones en alemán a partir de información estructural, léxica y de corpus

نویسندگان

  • Kurt Eberle
  • Ulrich Heid
  • Gertrud Faaß
چکیده

Between classical symbolic word sense disambiguation (wsd) using explicit deep semantic representations of sentences and texts and statistical wsd using word co-occurrence information, there is a recent tendency towards mediating methods. Similar to so-called lightweight semantics (Marek, 2009) we suggest to only make sparse use of semantic information. We describe an approximation model based upon flat underspecified discourse representation structures (FUDRSs, cf. Eberle, 2004) that weighs knowledge about context structure, lexical semantic restrictions and interpretation preferences. We give a catalogue of guidelines for human annotation of texts by corresponding indicators. Using this, the reliability of an analysis tool that implements the model can be tested with respect to annotation precision and disambiguation prediction and how both can be improved by bootstrapping the knowledge of the system using corpus information. For the balanced test corpus considered the recognition rate of the preferred reading is 80-90% (depending on the smoothing of parse errors).

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Social Representations: A Review of Theory and Research from the Structural Approach

r e s u m e n Este artículo es una revisión de los avances teóricos y los hallazgos empíricos relacionados con las representaciones sociales de acuerdo con el enfoque estructural, una corriente de investigación que tiene como objetivo estudiar la influencia de factores sociales en los procesos de pensamiento a través de la identificación y caracterización de relaciones estructurales. La present...

متن کامل

Toponym Disambiguation in Information Retrieval∗ Desambiguación de Topónimos en la Recuperación de Información

Ph.D. thesis (European doctorate mention) in Computer Science written by Davide Buscaldi under the supervision of Dr. Paolo Rosso (Univ. Politécnica de Valencia). The author was examined in Valencia in October 2010 by a panel composed by the following doctors: Paul David Clough (University of Sheffield), Ross Purves (Universität Zürich), Emilio Sanchis Arnal (Univ. Politécnica de Valencia), Mar...

متن کامل

Matxin-Informatika: versión del traductor Matxin adaptada al dominio de la informática

Desarrollo de un corpus de postedición para su uso en postedición estadística Recopilación de corpus paralelo ● Del dominio de la informática ● Creado en la localización de Sw Tratamiento del corpus ● Analizado, lematizado y procesado con Giza++ ● Para cada lema (es) se extraen: ● sus posibles traducciones (eu) ● y su probabilidad Uso ● Reordenación de equivalencias en 444 entradas del lexicón ...

متن کامل

Comparabilité de corpus et fouille terminologique multilingue

RÉSUMÉ. Les principaux travaux en fouille textuelle privilégient communément la taille du corpus sur sa qualité. Ainsi dans le cadre de l’alignement lexical à partir de corpus comparables, les meilleurs résultats sont obtenus pour des corpus de grande taille (plusieurs millions de mots). Pour les domaines de spécialité, et pour de nombreuses paires de langues, il n’est pas possible de disposer ...

متن کامل

Degrees of Stativity: The Lexical Representation of Verb Aspect

L'acqnisition automatique de connaissance lexicale h partir de larges corpus s'est essentiellement oceup& des phfinom~nes de co-occurrence, aux dfipens des traits lexicaux inh~rents. Nous prfisentons ici une m&hodologie qui permet d'obtenir l'information sfimantique sur l'aspect du verbe en analysa~t automatiquement un corpus et en appliquant des tests linguistiques h l'aide d'une stifle d'outi...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2011